Model Selection

Multilingual Speech Processing

# Multilingual Speech Processing

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct is a lightweight open-source multimodal foundation model that supports text, image, and audio inputs to generate text outputs, with a context length of 128K tokens.

Multimodal Fusion

Transformers Supports Multiple Languages

English Filipino Wav2vec2 L Xls R Test 07

This model is a fine-tuned version of jonatasgrosman/wav2vec2-large-xlsr-53-english on Filipino speech datasets, primarily used for English-to-Filipino speech recognition tasks.

Speech Recognition

Wav2vec2 Xlsr Nepali

This model is a fine-tuned Nepali speech recognition model based on facebook/wav2vec2-large-xlsr-53.

Speech Recognition

S2t Wav2vec2 Large En Tr

A Transformer-based end-to-end speech translation model for English-to-Turkish speech-to-text tasks

Speech Recognition

Transformers Supports Multiple Languages

S2t Small Covost2 En Et St

This is a Transformer-based end-to-end speech translation model specifically designed for converting English speech into Estonian text.

Speech Recognition

Transformers Supports Multiple Languages

S2t Small Covost2 En Ca St

This is a Transformer-based end-to-end speech translation model specifically designed to translate English speech into Catalan text.

Speech Recognition

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase